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RECOISNAISSANCE VOCALE POUR 
LES LARGES VOCABULAIRES DYN2VMIQUES 

La presente invention se rapporte au domaine de la 
5 reconnaissance vocale. 

La pr§sente invention se rapporte plus 
particuliSrement au domaine des interfaces vocales. Elle 
pr6sente I'avantage d'etre utilisable ihd^pendamment du 
contexte de 1 ' application vocale particuliSre : systeme de 
10 reconnaissance de la parole pour serveur t61eph.onique , 
dictee vocale, systSme de commande et contr61e etnbarquS, 
indexation d' enregistrements-. 

Les logiciels commerciaux actuels de reconnaissance de 
15 la parole sont bas6s sur 1' usage de rSseaiix de Markov cacli6s 
(HMM pour Hidden Markov Model en anglais) pour decrirfe* le 
vocabulaire k reconnaitre, et sur un d^codage utilisant", un 
algorithme de type Viterbi pour associer ^ .chaque enonce*; une 
phrase de ce vocabulaire. 
20 Les rSseaux markoviens en question utilisent . le plus 

souvent des 6tats i. density continue. 

Le vocabulaire de 1 ' application , qu'il soit k 
1' origins base sur des grammaires ou sur des modeles de 
langage stochastiques , est compile en un reseau d'etats 
25 fini, avec un phondme de la langue utilisSe Bl chacjue 
transition du reseau. Le r emplacement de chacun de ces 
phon&mes par un r€seau markovien SlSmentaire qui repr^sente 
ce phoneme dans son contexte de coarticulation, produit 
finalement un grand reseau markovien sur lequel le decodage 
30 de Viterbi s' applique. Les r§seaux 616mentaires eux-memes 
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ont appris grtce ^ un corpus d' app rent is sage et avec un 

algorithme d' app rent iss age maintenant bien connu de type 
Baum-Welsh, par exemple. 

Ces methodes aujourd'hui classiques sont dgcrites par 
exemple dans I'ouvrage de r^fgrence de Rabiner, et 1' usage 
de modules de langage dans celui de F. Jelinek. 

Par souci de complStude, nous allons n6anmoins d^crire 
a nouveau de mani^re simplifige les diff^rents composants 
d'un moteur de reconnaissance vocale actuel, dans un exemple 
particulier d' usage. 

Un signal de parole est conceptuellement une suite de 
phondmes continue ou interrompue par des pauses, des 
silences ou des bruits. Les proprietSs acoustiques du signal 
de parole peuvent, au moins pour les voyelles, gtre 
consid^rSes comme stables sur des durSes de I'ordre de 30 
ms. tJn signal issu du tSlgphone, 4chantillonn6 t 8 kHz, va 
done Stre segments en trames de 256 echantillons (32 ms) , 
avec un recouyrement de 50 % pour assurer une certaine 
continuity, L' information phongtique est ensuite extraite de 
chacune de ces trames par le calcul, par exemple dans le cas 
d' implementation dScrit ici, des 8 premiers MFCCs (Mel 
Frequency Cepstral Coefficients, voir [Richard]), de 
I'energie de la trame, et des derivees premieres et secondes 
de ces 9 grandeurs. Chaque trame est ainsi representee, 
toujours dans cet exemple particulier, par un vecteur de 
dimension 27 appeie vecteur acoustique. En raison des 
variations inter- et intra- locuteur , des conditions 
d'enregistrement, etc. dans les signaux de parole, un 
phoneme ne sera pas represents par un point dans cet espace. 
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mais par un nuage de points, autour d'line certaine moyenne 
avec un certain 6talement. La distribution de chaque nuage 
dSfinit la density de probability d' apparition du phoneme 
associg. Si cette extraction par MFCC est judicieuse, on 
doit obtenir dans cet espace un- ensemble de classes 
relativement compactes et sSparSes les unes des autres, 
chacune correspondant k un phoneme. 

Aprds cette phase d' extraction acoustique, le signal 
de parole est done d^crit par uiie suite de vecteurs 
acoustiques, et le travail de reconnaissance consiste a. 
determiner quelle suite de phonemes est, de la faqjon la plus 
probable, associSe a cette suite de vecteurs acoustiques.. 

Conceptuellement done, un signal de parole est .une 
15 suite de phonemes continue ou interrorapue par des silences, . 
des pauses ou du bruit. Le mot « z^ro » par exemple rest 
const itug des phonemes [z] , [e] , [r] , [o] . On pour;rkit 
imaginer un r^seau de Markov gauche -droite ^ 4 #tats, chaque 
etat 6tant assoeiS a \in de ces phonemes, dans lequel on ne 
20 perraettrait aucun saut au-dessus d'vax 6tat. Avec ua. module 
entrains, on pourrait rSaliser gr^ce k I'algorithme de 
Viterbi xin « alignement » d'un nouvel enregistreraent , c'est- 
a-dire determiner le phoneme associe a chacune des trames. 
Cependant a cause des phSnomdnes de coarticulation entre 
25 phondmes (modification des caractSristiques acoustiques d'vm 
phoneme lors du changement de forme du conduit vocal entre 
deux sons stables), il est nScessaire d'associer plusieurs 
Stats a un meme phoneme, pour prendre en compt^ 1' influence 
du contexte. On obtient ainsi des Stats contextuels 
d'entrSe, des etats dit « cibles », qui correspondent, a la 
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partie stable du phoneme, mais qui peuvent dSpendre elle- 
ra§me des ph6nomdnes de coarticulation, de telle sorte qu'il 
y a en g6n6xal plusieurs cibles, et des 6tats contextuels de 
sortie. Dans cet exemple particulier, on peut done par 
5 exemple utiliser des rSseaux raarkoviens 616mentaires en 
forme de papillons pour modSliser les phonSmes Sl^mentaires 
de la langue. 

En reprenant 1 ' exemple prec6dent, on aurait par 
exemple pour le phoneme [e] un r^seau tel qu' illustrg Figure 
10 1. 

On aurait Sgaleraent par exemple pour le phoneme [z] un 
rgseau tel qu' illustrg Figure 2 . 

De m§me, chacun des phonemes utilises pour dScrire la 
langue en question est associS t ce type de rSseau 
15 markovien, different dans sa forme mais pr^sentant tou jours 
des entries et sorties contextuelles dependant des 
ph6nomdnes de coarticulation. 

Ces diffSrents r^seaux, qui correspondent chacun a un 
phoneme de la langue, ont des densit6s de probabilitSs et 
des probabilit^s de transition qui sont determinges par 
apprentissage sur un corpus de phrases enregistr6es, avec 
1' usage d'un algorithme de type Baum-Welsh pour I'obtention 
des diff^rents paramStres (voir Rabiner par exemple) . 
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Le vocabulaire a reconnaitre varie en fonction de 
1' application : ce peut Stre un nom, ou un nuragro de 
tglSphone, ou des requStes plus compliqu#es, par exemple des 
phrases completes pour une application de dictSe . II faut 
done specifier les mots a reconnaitre, leur enchainement , ou 
leur probability d' enchainement, la syntaxe des phrases si 



elle peut Stre connue et d^crite, pour utilieer cette 
connaissance supplement aire, simplifier les reseaux de ' 
Markov et obtenir de bonnes performances en temps de calcul 
et en taux de reconnaissance. 

C'est le r61e du module de langage de reprSsenter 
cette connaissance. 

Dans I'exemple a caract&re d' illustration de I'^tat de 
I'art dans ce domaine, nous utiliserons des modeles de 
langage bases sur des grammaires probabilistes, plutot que 
des modeles de langage stochastiques , comme ceux utilises 
par exemple dans les systSraes de dictee. 

Une grammaire toute simple est celle constitute par la 
syntaxe article-nom-verbe, avec pour article « le », pour 
nom « chien et pour verbe « mange » ou « dort Le 

compilateur va trajisformer cette grammaire en \m rtseau de 
Markov, en mettant bout k bout les papillons des difftrents 
phonemes, en tlirainant les branches inutiles, et ce-.pour 
toutes les phrases compatibles avec la syntaxe. L'etat 
initial est fixe, par un papillon specif ique represent ant le 
silence de debut de phase. II va Stre relie k 1' entree 
<c pause » du papillon du phoneme /I/. Seules les branches 
qui sont accessibles par transition a partir de cette entrSe 
sont conservSes , jusqu'^ la sortie correspondant au phoneme 
/0/. Cette sortie et ensuite reliee k 1' entree du papillon 
du /0/ correspondant au /I/, Puis par transition seules les 
branches utiles dans ce papillon sont conservSes, et on 
continue ainsi jusqu'^ gpuisement des possibilitts de la 
grammaire, Le rSseau se termine ntcessairfement sur un 
papillon modelisant le silence de fin de phrase. Des 
branches du rtseau peuvent etre parallSles, si on a 
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plusieurs possibilit^s de mots corame « mange » ou « dort », 
si on veut introduire tme pause optionnelle entre deux mots, 
ou si plusieurs phon^ti sat ions sont possibles pour un raSme 
mot (par exemple « le » peut se prononcer [I0] ou [loe] 
suivant la region d'origine du locuteur) . 

De plus a la fin de chaque sous-rgseau (tan sous-r€seau 
correspondant par exemple a un mot) , on introduit una 
transition « vide », c'est-a-dire avec une probability de 
transition ggale a 1, attach^e a une <k Etiquette », qui est 
Tme chaine de caractdres donnant le mot repr^sentg par ce 
sous-rSseau (elle sera utilis€e lors de la reconnaissance) . 

Le r^sultat de la compilation est un r^seau complexe 
(d' autant plus que la grammaire est corapliqu^e) , optimise 
pour la reconnaissance d'un certain type d'€nonc6. 
15 La construction du rgseau markovien d'une application, 

dite compilation, comprend done trois phases reprSsent^es 
Figure 3. 

Pour illustrer ces phases, nous aliens prendre un 
nouvel exemple simple basS sur une grammaire selon le format 
20 ABNF du W3C : 

#ABNP 1.0 ISO-8859-1; 
language fr; 

25 

root $main; 

public $main = $BEGSIL (tgte | jambe) $ENDSIL/ 

Cette grammaire permet simplement de dgcrire le modSle 
30 de langage qui permet de reconnaltre le mot tSte ou le mot 



jarabe, de fagon isolee, c' est-S-dire pr#c6dgs et suivis d'un 
silence (et non pas de trouver une occurrence de ces mots 
dans des phrases plus complexes) . 

Lorsque cette grammaire est compilee au niveau 
syntaxique, on obtient le r§seau de la Figure 4, 

Las transitions marquees W sont des marqueurs de mots 
qui searviront seulement k retrouver apres decodage, le mot 
ef f ectivement prononcS. Les transitions marquees L signalent 
un mot effectif de la langue qui devra §tre phon6tise. 

Puis la compilation lexicale, qui traduit la 
phonetisation des mots et 1 ' introduction de cette phonetique 
dans le reseau, produit le reseau de la Figure 5. . 

S'ur ce graphe comme sur les autres, les num^rojs. des 
6tats n'ont pas d'' importance . On retrouve encore^ les 
marqueurs de mots, qui sont situ6s dans le r6seau de fa9on 
arbitraire tant qu'ils sont bien presents sur tous' les 
parcours du graphe qui reprSsente le mot associe, et pas sur 
les .autres. 

Et enfin, la compilation acoustique peannaet d'obtenir 
le reseau markovien final, par utilisation des reseaux 
acoustiques en lieu et place des phondmes associes, 
application des conditions de raccordement contextuelles des 
modules, et optimisation du.r6seau. Ce rSseau markovien est 
repr6sent6 Figure 6. 

Dans ce dernier graphe, les marqueurs de mots sont 
toujours presents, et meme parfois dupliques, / 

Ce dernier graphe est uniquement present^ pour montrer 
que sa complexity et le nombre d' 6tats qu'il comporte, sont 
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beaucoup plus grands que pour le niveau lexical. La 
compilation acoustique est de loin la phase la plus longue, 
produisant le rSseau le plus gros. 

Une fois le rgseau markovien de 1 ' application 
construit comme d^crit ci-dessus, il est alors utilise par 
le moteur de reconnaissance pour la comprShension (dScodage) 
des phrases pronpncees par I'utilisateur . 

Dans un premier temps, comme il a gtS d6crit plus 
haut, ce signal de parole est converti grSce k la phase 
d' extraction acoustique, en une suite de vecteurs 
acoustiques . 

II s'agit alors de determiner quel parcours dans le 
rgseau markovien de 1 ' application, est le plus probablement 
associS a cette suite de vecteurs acoustiques, ou bien de 
decider que I'Snoncg n'est pas une des phrases que 
1' application est construite pour reconnaitre. 

Ceci est effectue en utilisant I'algorithme de 
decodage de Viterbi, par exemple. Le principe du d^codage 
est illustre Figure 7. 

Sur I'axe des abscisses du schema sont reprSsent^s, en 
temps discret, les diffgrents vecteurs acoustiques qui 
•arrivent rSguli^rement au moteur de reconnaissance (par 
exemple ici, toutes les 16 ras) . 

^ ordonn^e, sont repr6sentes les diffgrents gtats du 
rgseau markovien de 1 ' application, ainsi qu'ils ont 6te 
obtenus aprgs la phase de compilation d6crite plus haut, et 
qui utilisait a la fois la structure en papillon des 
phonSmes Pigment aires de la langue, et la graramaire de 
30 1' application. 
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Ainsi/ si I'on repr§sente tous les ^tats du r^seau sur 
I'axe vertical, seules certaines transitions entre ces Stats 
sont possibles, avec une certaine probability/ et au depart, 
on est forcement dans un des etats associes au silence de 
depart, represents en doiable cercle sur la figure. 

On calcule alors, k chaque nouvelle trame, et en 
considSrant toutes les transitions permises, le score du 
Ttieilleur chemin amenant a tout Stat Ej , 

II y a alors un Slagage, c'est-a-dire que I'on ne 
retient pour les developpements associSs aux prochaines 
trames, que les n meilleurs candidats, ou, selon certaines 
variantes de 1 ' algorithms , que les Stats qui ont un score 
suf f isamment proche du score du meilleur parcours (i.e. 
celui qui au temps Ti, obtient le score le plus SlevS) . 

A titre d'exemple, on a reprSsentS sur le schSma le 
front a 1' instant t4 , avec les. scores des diffSrents 
candidats. Si, par exemple, on avait. choisi de limiter le 
front a 3 Stats, alors les hypotheses de dSveloppement du 
front reprSsentSes en vert n'auraient pas StS explorSes. 

De la m§Tne manidre, si I'on avait dScidS de ne 
conserver que les candidats ayant un score au moins Sgal & 
10% du score maximal, alors ces memes hypotheses n'auraient 
pas etS explorSes* 

En rSalitS, on conserve . gSnSraleraent plusieurs 
centaines voire plusieurs milliers de candidats, selon la 
complexitS de la grammaire* 

II faut remarquer que si la gramraaire est complexe, il 
arrive frSquemment que seule ime petite portion du rSseau 
markovien est ef f ectivement utilisSe dans le dScodage,' le 
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reste n'etant pas visits a cause de I'^lagage lui-m§me, 
supprime les hypotheses trds peu probables. 
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Lorsque toutes les traraes de parole ont 
consomm^es, on obtient alors, comme parcours le plus 
probable, le chemin de plus haut score obtenu par 
I'algorithrae pour lequel l'4tat de sortie du rSseau est 
atteint. On remonte alors la suite des etats associ^s, du 
dernier au premier (backtracking en anglais) , pour obtenir 
la phrase qui a vraisemblablement 6t€ prononc6e, en 
utilisant les fronts conserves aux diffgrents instants. 

Ceci est illustr6 Figure 8. 



Plut6t que de ne retenir que la suite d' Stats qui a 
15 obtenu le meilleur score, il est possible d'en conserver 
plusieurs, en prenant soin de ne prendre en consideration 
que les suites qui sont ef f ectivement associSes a des 
#nonc6s diffgrents (et non 4 des variantes d'un mSme enoncS, 
avec par example des alignements temporels diffSrents ou 
bien avec des variantes de prononciation diffSrentes) . 

Cette technique, dite de dgcodage Nbest, peut gtre 
utilisSe pour obtenir les n meilleurs candidats, avec pour 
chacun, un score associS, ce score Stant d'autant plus 61ev6 
que la phrase est plus probable. 
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Vis-a-vis du dScodage de Viterbi, le d€codage Nbest 
implique de conserver, dans le cas oCl plusieurs transitions 
aboutissent a un seul noeud, non pas le seul antecedent qui 
produit ce meilleur score, raais plusieurs antecedents et 
30 leur score associS. 



Done par example, s'il s'avSre que le rfiseau final est 
en fait xin arbre, c'est-^-dire si un noeud peut avoir 
plusieurs successeurs, raais qu'un noeud n'a toujours qu'un 
seul antecedent, alors la phrase ef f ectivement prononc^e 
peut Stre simplement d^duite §l partir du dernier noeud 
atteint, et il est alors possible de faire du dScodage Nbest 
sans surcoflt, juste en classant en fin de dScodage les noeuds 
finaux par ordre de scores decroissant. 

La reconnaissance vocale selon I'etat de I'art que 
nous avons d^crit, utilise xm rSseau de Markov cach^ cpii est 
construit par compilation en trois phases : compilations 
syntaxique, lexicale puis acoustique, cette derniere phase 
etant de loin la plus longue et produisant le reseau le plus 
gros. 

Le rSseau obtenu est utilisS par un algorithm© de 
decodage de Viterbi avec Slagage, c'est-&-dire que seules 
les solutions qui semblent les plus prometteuses sont 
developpees, et les autres abandonnees. 

Par ce principe d'61agage, chaque reconnaissance 
utilise une sous-partie du rSseau diff^rente. 

Nous avons vu que les moteurs de reconnaissance de 
I'art ant^rieur utilisent pour le dScodage un reseau compile 
qui reprgsente le vocabulaire act if, plus exactement 
1' ensemble des phrases que 1 ' application peut reconnaltre* 
Cette compilation est souvent un processus lent, m§me sur 
des machines puissantes, et le reseau compile obtenu peut 
etre assez encombrant en memoire. 



10 



15 



20 



25 



12 

Ceci est surtout pSnalisant pour les gros vocabulaires 
corarae les listes de notns utilisSes en assistance vocale pour 
les annuaires (plusieurs centaines de milliers de noras, 
voire plusieurs millions pour certaines grandes villes) , et 
qui, de plus, sont dynamiques : il faut pouvoir rapidement 
construire la liste associSe a une zone g^ographique dans 
une requite d' §largissement autour d'une ville donn^e par 
exemple . 

Comme on I'a vu dans la presentation de l'6tat de 
I'art, la reconnaissance vocale actuelle s'appuie sur un 
rgseau de Markov qui est construit par etapes successives, 
la dernidre gtape, la plus consommatrice en temps, 
produisant finalement un rgseau directement utilisable dans 
I'algorithme de d^codage. 

Le d^codage lui-mgme est bas6 sur I'algorithme de 
Viterbi avec ^lagage, c'est-^-dire que seules les hypotheses 
de plus haut score sont conservges dans le dgveloppement 
temporel de la recherche des meilleurs candidats. 

Lorsque le vocabulaire d'une application est grand, ou 
lorsque les grammaires sont complexes, done que le r^seau 
markovien de 1' application comprend un trds grand nombre 
d' Stats, il dgcoule de I'glagage que seule une petite partie 
-du rgseau sera ef f ectivement utilisSe au cours d'un dficodage 
donng, le reste etant representatif de parties du 
vocabulaire ou de la grammaire phone tiguement trds 
diffSrentes de ce qui est eff ectivement prononcS. 

Le principe de 1' invention est de construire 
dynamiquement, pour chaque dgcodage, la petite partie du 
rSseau utile, plutdt que, comme dans I'gtat de I'art, 
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construire d'abord le reseau cotnplet qui sera ensuite 
utilisS tel quel dans tous les decodages futurs. 

Plus pr^cis^ment, le principe de 1' invention est de 
construire \xn arbre phonetique representatif du vocabulaire 
5 de 1 ' application. Ce graphe correspond en quelcjue sorteau 
r^sultat des premidres Stapes de compilation, jusgu'^ la 
phase lexicale . 

La production de ce graphe est extrSmement rapide, 
m§me pour de trds grands vocabulaires' de plusieurs centaines 
10 de milliers de mots. 

Ce graphe est alors utilise au cours de chaque 
dgcodage, pour permettre de construire la partie du rSseau 
de Markov acoustique necessaire selon I'elagage present*. 

15 A' cet effetjr la prSsente invention concerne, dans .son 

acception la plus g#n6rale, un procSdS de reconnaissance 
vocale comportant une 6tape de representation ^.d' un 
vocabulaire traduit en . un modele de Markov, lone etape de 
decodage par un algorithme de Viterbi et urie 6tape d'elagage 

20 des . solutions explor^es, caract6ris6 en ce que ledit 
vocabulaire est decrit sous forme d'un arbre composS d'arcs 
et de noeuds entre lesqpaels sont d^finies des transcriptions 
decrivarit les unites phon^tiques utilisees par le modele de 
langage de 1 ' application, et en ce que le reseau de Markov 

25 necessaire au decodage de Viterbi est construit au moins en 
partie de mani^re dynamique grSce k des sous -unites 
Markoviennes * 

/ 

Avantageusement , des mots diff brents' du vocabulaire 
30 mais presentant des segments phonStiques identiques en dSbut 
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de mot partageront, pour ces segments identiques, les m§mes 
branches de I'arbre phonetique. 

Selon un mode de mise en oeuvre, lesdites unites 
phon^tiques sent des phonemes . 
5 Selon un autre mode de mise en osuvre, lesdites unites 

phon^tiques sont des phonemes en contexte. 

La presente invention se rapporte egalement k un 
systeme de reconnaissance vocale pour la mise en ceuvre du 
10 precede comprenant au moins ixne mSmoire et des moyens de 
calcul . 

On comprendra mieux 1' invention a I'aide de la 
description, faite ci-apres a titre purement explicatif, 
15 d'un mode de realisation de 1' invention, en r6fSrence aux 
figures annex6es : 

• la figure 1 illustre un exemple de r^seau de 
Markov correspondant k un phoneme ; 

• la figure 2 illustre un autre exemple de reseau de 
20 Markov correspondant a un phondme ; 

• la figure 3 repr6sente la construction du rSseau 
markovien d'une application, dite compilation ; 

• la figure 4 illustre un reseau obtenu lorsqu'une 
grammaire est compilee au niveau syntaxique ; 

• la figure 5 illustre un rSseau produit par la 
compilation lexicale, qui traduit la phonetisation des mots 
et 1' introduction de cette phonetique dans le rSseau ; 

• la figure 6 repr^sente un autre exemple de reseau 
markovien ; 



• les figures 7 et 8 illustrent le principe du 
dScodage ; 

• la figure 9 illustre un exemple de graphe pour la 
mise en oeuvre du procSde selon 1' invention ; 

• la figure 10 illustre la forme d'un arbre ; 

• la figure 11 illustre un rSseau markovien 
repr^sentant le phondtne [m] ; 

• la figure 12 illustre un r€seau markovien extrait 
de celui de la figure 11 selon les contraintes de contexte ; 

• les figures 13, 14, 15, 16, 17, 18, 20 et 21 
represent ent d' autres r^seaxix. de Markov ; et 

• la figure 19 illustre un arbre. 

Dans un exemple particulier d' utilisation, 1' invention 
est pafticulidrement adapt 6e a la reconnaissance vocale sur 
de trds grandes listes de mots ou de noms, par exemple pour 
des applications d'annuaires vocaux* ,„ 

La description de 1' invention sera done fai.te, de 
fa<?on non limitative, pour ce type d' application. 

L'accSs k I'annuaire se fait pour 1 'utilisateur au 
travers d'une suite de questions-rSponses , dont un exemple 
est donnS Figure 9* 

Dans cette sequence de quest i9ns, certaines vont 
occasionner des reponses possibles pour un vocabulaire 
const ituS par une longue liste de noms : par exemple 
<c Reconnaissance Nom » pour une ville importante, si la 
liste des abonnSs a 6t€ mise a jour* Cettie liste doit 
d' autre part 8tre elargie dans le cas ou le dialogue mene a 
I'extension aux localites voisines, c'est-^-dire si ' la 
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recherche doit §tre gtendue k des villes proches de la ville 
initiale de recherche. 

C'est principalement dans ces cas que la techrxologie 
actuelle de I'etat de I'art est inutilisable, car la 
compilation du reseau markovien qu'elle necessite est 
beaucoup trop lente. 

On voit ggalement sur ces graphes 1' usage du decodage 
Nbest, qui permet d'enumerer les solutions possibles et de 
demander la validation par I'utilisateur . 

Ces listes sont construites par interrogation d'une 
base de donn€es, qui, pour chaque ville, donne les abonn^s 
telSphoniques et la ou les phon^tisations possibles de ces 
noms . 

Nous aliens d^crire le f onctionnement dgtaille de 
15 1' invention en utilisant une liste rfiduite de noms, afin de 
rendre clairs les dSveloppements , mSme s'il s'av^re que 
1 ' intSrgt de 1 ' invention reside principalement dans son 
efficacite pour les grands vocabulaires • 

Prenons les noms suivants, avec leur phonetisation : 

20 

Morand m . o . r . an 

Moraux m . o . r . au 

Morazin m . o . r . a • z . in 

Morel m . o . r . ai . 1 . (e+()) 

25 Morice m . o . r . i . s • (e+()) 

Morin m . o . r . in 



Dans 1' invention proposee, cette liste n'est done pas 
utilisee pour produire un reseau classique par compilation 
tel que decrit dans I'etat de I'art presents plus haut. Elle 
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est au contraire transformSe en un arbre phon6tique 
d^terministe . 

Pour les noms donnes ci-dessus, cet arbre prendra la 
forme telle qu'illustr^e Figure 10. 
5 II faut noter que la creation d'un tel graphe est 

extrSmement rapide, puisque sur une machine de calcul de 
Hewlett Packard de type Pentium 3 de IGHz de frequence 
d'horloge, il faut par exemple 0,4 seconde pour former 
1' arbre d'une ville de 60 000 habitants, alors que la 
10 compilation standard complete de cette mSme liste prend sur 
la m§me machine environ 8 minutes, ce qui est incompatible 
avec le temps d'attente d'une personne utilisatrice du 
service. C'est en effet la phase de construction du r6seau 
markovien final qui est la plus longue, 

15 . 

Ij' arbre prSc^dent est utilise, selon la presente 
invention, dans le dScodage de Viterbi pr6f Srentiellem^nt de 
la maniere suivante (des variantes seront prgsent6es . plus 
loin) : 

20 

Au dSmarrage du decodage, nous sommes dans I'Stat 
initial du graphe repr^sente par la boite numSrot^e 0. 

Ce graphe montre que le premier phondme est \m [m] , 
avec k gauche un silence de debut de mot, puisque c'est le 
25 premier Stat, et H droite un unique phoneme [o] . 

Si par . exemple, dans le jeu des rSseaux markoviens 
§16mentaires utilises, selon I'gtat de I'art, le phoneme [m] 
est represents par le reseau de la Figure 11. / 
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Alors, puisque k gauche du phoneme [m] on a seulement 
un silence, qui correspond & 1' entree qe_m_pau, et puisque a 
droite on a xin seul phondme [o] , qui correspond a la sortie 
qs_m_jpom, alors seuls les €tats grisSs du moddle €l#mentaire 
5 seront ef f ectivement accessibles et utiles. 

On composera done le rgseau illustrg Figure 12 extrait 
du prScgdent selon les contraintes de contexts . 



On commencera le decodage de Viterbi avec ^lagage sur 
10 ce rgseau. Lorsqu'une des hypotheses d€velopp6es dans le 
front atteindra I'gtat qs_m_pom, il faudra alors construire 
la suite du r^seau dynamiquement pour poursuivre le 
decodage . 

Pour cela on utilise I'arc phonStique pour trouver que 
15 le phoneme suivant est un [o] , pris entre le phondme [m] et 
le phonSme [r] . 

La situation est identique : 

Si par example le phondme [o] est represents par le 
rSseau markovien de la Figure 13, alors la partie utile, 
20 representee par les noeuds grists sur le dessin, sera du fait 
des contextes, conforme a la Figure 14. 

Et on obtiendra done, a ce stade du decodage, le 
rgseau dynamiqTaement construit de la Figure 15. 

Encore une fois, lorsqu'une des hypotheses du decodage 
de Viterbi atteindra I'gtat final de ce rgseau (note ici 
qs_o_r) , on utilisera I'arbre phonStique pour constater que 
le phonSme suivant est un [r] . 

A ce stade, ce rSseau construit dynamiquement est bien 
la sous -partie du rSseau complet qui aurait ete obtenu par 
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une compilation traditionnelle . La seule difference est 
qu'il est construit a la demande, et non avant usage de 
maniSre complete et statique . 

En d'autres termes, l'61agage n'a pas encore d' impact 
sur le d6veloppement du reseau qui rSduirait ef f ectivement 
les portions de rSseau d^velopp^es. 

Nous aliens voir maintenant ce point particulier dans 
notre example en poursuivant le dScodage dans un contexte 
phonetique plus riche : 

En effet, le [r] est cette fois present dans un 
contexte phonStique plus riche, puisqu'on trouve k sa droite 
dans I'arbre les phonemes [in], [i] , [ai] , [a], [au] , [an]. 

Si le [r] est repr^sente par le reseau de la Figure 
16, alors la partie utile de ce contexte sera conf orme.. & la 
Figure 17. 

Et finalement, on arrivera Sl ce stade au rSseau .act if 
dynamiquement construit repr^sente sur la Figure 18, 

Supposons done que, au cours du d^codage de Viterbi 
s'appuyant sur ce reseau, une des liypothdses amene Sl I'etat 
de . .sortie qs_r_i (parce que 1 ' utilisat eur prononce 
ef fectivement Morice) avec \in score tellement 61ev§ que les 
autres hypotheses, arrivant dans les autres ^tats de sortie, 
soient 61iminees du front, 

Alors au cours du d^veloppement dynamique suivant, 
seule la branche de 1' arbre . associee k cette hypothdse sera 
dSveloppee, les autres #tant abandonnSes. Tout se passe 
comme si le dScodage se poursuivait sans les branches de 
I'arbre present€es en pointilles sur la Figure! 19. 

Ainsi cette fois, en consequence de I'elagage, le 
reseau dynamiquement dSveloppS selon le principe ' de 
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1' invention n'est plus 1' image du r§seau complet obtenu par 
compilation selon l'#tat de I'art : c'est un r^seau plus 
petit • 

L'exemple developpe ici est simple par souci de 
5 clart§, mais dans des applications rSelles, la partie du 
r^seau ef f ectivement dgveloppge est trds faible comparSe au 
rSseau classique obtenu par compilation. 

On peut done dire que, selon I'etat de I'art, le 
reseau markovien correspondant au vocabulaire de 
10 1' application est construit une fois pour toutes, et que 
pour chaque d6codage, en raison de I'^lagage mis en csuvre au 
cours du d6codage, seule une petite partie de ce reseau est 
eff ectivement utilis§e . 

Tandis que, selon le principe de 1' invention, le 
15 reseau complet n'est jamais construit, mais la partie du 
rSseau eff ectivement necessaire pour une reconnaissance 
donnSe est dynamiquement construite au cours du decodage* 

Dans 1' implementation que nous avons pr6sent€e, la 
20 partie du reseau de Markov cachS de 1' application qui est 
necessaire pour un dgcodage est construite dynamiquement, 
6tape par St ape, en dScoupant les reseaux markoviens 
S16mentaires afin d'en extraire, selon les contextes 
d' apparition des phonemes dans I'arbre de 1 ' application, la 
25 sous-partie utile. 

L'arbre phonetique de 1 ' application joue dans ce 
processus un r61e central pour determiner ces contextes, de 
meme qu' il permet d'effectuer un dScodage Nbest de maniSre 
efficace et simple, du fait meme de sa structure d'arbre, 
30 par opposition a un graphe. 



II exi'ste d'autres implementations de 1' invention 
propos6e, qui conserve le r61e central de cet arbre pour les 
raisons d^crites* 

Nous allons dScrire vme.de ces alternatives, de fagon 
non exclusive d'autres variantes. 

Supposons que nous ayons, pour une langue donn^e, 40 
reseaux markoviens 61ementaires representant les phonemes 
utilises dans cette langue pour phonetiser les mots» Ces 
reseaux, comme dans les quelques exemples donn€s, ont des 
etats d' entree et de sortie pour reprSsenter les contextes 
phon^tiques, selon des regies strictes : par exemple un etat 
qs_x_i ne peut Stre connecte qu' & un etat qe_y_i, x et y 
etant deux reseaux el^mentaires quelconques . 

Oil peut construire alors un r^seau global dans lequel 
les 40 sous-rSseaux sont mis en paralldle, et de plus, 
toutes les sorties de chaque r6seau sont connectees par des 
transitions vides a toutes les entrees de tous les reseaux 
qui lui sont compatibles selon les contextes phonetiques 
(C est-a--dire qu'on a un rSseau markovien correspondant §l 
toutes les suites de phonemes possibles) . 

II est alors possible, au lieu de dSvelopper 
dynamiquement comme precedemment la partie utile- -du rSseau, 
d'utiliser I'algorithme de Viterbi dans lequel les etats 
manipules sont des paires constitu6es d'un Stat du rSseau 
complet fontiS comme (JScrit ci-dessus et d'lin noeud de 1' arbre 
phone tique , 

Lorsqu'une hypothdse amene k un des et^ts de sortie 
d'un papillon, alors on vgrifie dans 1' arbre phonStique 
qu'il y a bien des branches compatibles avec le conte^jcte 
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phonStique associS & cet 6tat. Dans le cas contraire, on 
abandonne le d^veloppement de cette hypothdse, comme si elle 
6tait victime d'un glagage standard. 

Cette m^thode est f onctionnellement 6quivalente k la 
5 mithode propos^e pr#c6demment , mais elle est plus codteuse 
en temps de calcul, puisque des hypotheses sont d^velopp^es 
m§me s'il s'avdre ult^rieurement qu'elles conduisent a des 
context as phonetiques qui ne sont pas presents dans I'arbre 
de 1' application, et done qu' elles seront de toute fagon 
10 ^limin€es . 

Pour illustrer ce point, on peut reprendre I'exemple 
du phonSme [r] utilisS dans notre exemple pr^c^dent . En 
raison de la structure particulidre de I'arbre de notre 
exemple, seuls les gtats gris6s du module complet, et les 
15 transitions entre ces €tats, Staient finalement utiles. On 
se reportera a cet effet a la Figure 20. 

Selon la description de la variante decrite ici, les 
autres transitions vers toutes les sorties non gris§es 
seraient ggalement d^veloppees, mais seraient ensuite 
20 abandonn^es quand l'6tat de sortie serait atteint, 
puisqu'aucun des contextes associes a ces gtats n'est 
present dans I'arbre de cette application simple. 

II est possible de rettiedier a ce surplus de travail en 
ajoutant des transitions vides nouvelles dans chacun des 
25 rgseavix gl^mentaires utilises, qui se comportent comme des 
portes, c'est-a-dire qui peuvent Stre ouvertes ou fermSes, 

Dans le cas de I'exemple du r^seau associg au phoneme 
[r] ci-dessus, on aurait par exemple le r§seau de la Figure 
21. 
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Sur ce module, les transitions en pointings montre 
des transitions de type porta « ouverte », du fait du 
contexte d' apparition du [r] , qui fait que tous les Stats de 
sortie ne peuvent Stre atteints. 
5 Pour les Stats de sortie activSs, en grisg sur . le 

schema, les portes associSes sont fermees, et sont 
representees en traits pleins, 

Dans le front de developpement utilisS par 
I'algorithrae de decodage de Viterbi avec Slagage, il faut 

10 non seuletnent conserver, comtne decrit plus haut, une 
rgfSrence a I'etat du rSseau associe a I'hypothese que cet 
element du front reprSsente, mais aussi conserver dans des 
variables appropriSes I'etat des portes (ouvertes ou 
ferraSes) en tenant compte des contextes droits d' apparition 

15 du phoneme dans I'jarbre.. 

Par example, il est possible que daris un mSme front, 
deux references differentes au meme phoneme done au mSme 
reseau soient present es,. mais dans des contextes phonStiques 
diffSrents et done avec des positionnements des portes 

20 dif f .erentes . 

Cette variant e est ainsi f onctionnellement equivalent e 
a 1 ' implementation standard presentee, Elle necessite 
neanmoins pour etre aussi -efficace, de rajouter ces 
transitions vides de type porte et de . les contrdler pour 

25 chaque Element du front au cours du decodage en fonction des 
contextes rencontrSs k droite de chaque phoneme dans I'arbre 
phone ti que. 
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Nous avons vu que I'arbre phon^tique est central pour 
1' invention propos^e, principalement pour permettre un 
decodage Nbest sans surcotit, 

Bien s<ir, il est possible de stocker cet arbre de 
5 maniere plus compact e, par exemple en stockant un graphe 
Equivalent k I'arbre dont les parties droites communes k 
plusieurs branches sont f actorisees . 

Par centre^ cette forme compacte sera utilisee comme 
representation de I'arbre lui-m@me de la maniere standard 
10 d§crite plus haut. 

li' invention est decrite dans ce qui precede & titre 
d' exemple, II est entendu que I'homme du metier est ^ mSrae 
de r^aliser diffSrentes variantes de 1' invention sans pour 
15 autant sortir du cadre du brevet. 
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REVENDICATIONS 

1. Precede de reconnaissance vocale comportant une 
etape de representation d'lon vocabulaire traduit en un 
5 module de Markov, une Stape de dScodage par un algorithme de 
Viterbi et une €tape d'^lagage des solutions explor^es, 

caractgrise en ce que ledit vocabulaire est decrit 
sous forme d'un arbre compose d'arcs et de ncEuds entre 
lesquels sont definies des transcriptions dScrivant les 
10 unites phonStiques utilisges par le moddle de langage de 
1' application, et en ce que le rSseau de Markov ngcessaire 
au decodage de Viterbi est construit au moins en partie de 
mani^re dynamique grace a des sous-vinites Markoviennes , 

2*, Proc#d6 de reconnaissance vocale selon la 
revendication 1, caractSrisS en ce que des mots diffSrents 
du vocabulaire mais present ant des segments phonetiques 
identiques en debut de mot partageront, pour ces segments 
identiques, les mSmes branches de 1' arbre phon^tique. 

20 

3* Precede de reconnaissance vocale selon la 
revendication 1 ou 2, caractgrisS en ce que lesdites unites 
phonetiques sorit des phonemes. 

4, Proced§ de reconnaissance vocale selon la 
revendication 1 ou 2, caract^risS en ce que lesdites unites 
phonetiques sont des phonSmes en contexte, 

( 

5. Systerae de reconnaissance vocale pour la mise en 
30 ceuvre du proc6d6 de reconnaissance vocale selon I'Une 
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quelconque des revendi cat ions prSc^dentes comprenant au 
moins une m^tnoire et des moyens de calcul . 
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BEST AVAILABLE IMAGES 

Defective images within this document are accurate representations of the original 
documents submitted by the applicant. 

Defects in the images include but are not limited to the items checked: 

□ BLACK BORDERS 

□j»fc«3ET:UT OFF AT TOP, BOTTOM OR SIDES 

□-f2»ED TEXT OR DRAWING 

Q'BLURRED OR ILLEGIBLE TEXT OR DRAWING 

□ SKEWED/SLANTED IMAGES 

□ COLOR OR BLACK AND WHITE PHOTOGRAPHS 

□ GRAYiiCALE DOCUMENTS 

l^fLINES OR MARKS ON ORIGINAL DOCUMENT 

□ REFERENCE(S) OR EXHIBIT(S) SUBMITTED ARE POOR QUALITY 

□ OTHER: 

IMAGES ARE BEST AVAILABLE COPY. 
As rescanning these documents will not correct the image 
problems checked, please do not report these problems to 
the IFW Image Problem Mailbox. 



